科研思路|NM:宏基因组与代谢组结合建立通过肠道菌群及其代谢物诊断炎症性肠病的方法
论文信息
论文题目:Gut microbiome structure and metabolic activity in inflammatory bowel disease
期刊:Nature Microbiology
IF:14.3
发表时间:2018
点击最下方“阅读原文”下载完整文献pdf文件。
本文通过对IBD个体粪便的宏基因组和代谢组测序,利用宏基因组和代谢组数据的单独分析,识别与IBD有关的肠道菌群及其代谢差异,进而通过宏基因组与代谢组数据的关联分析,研究IBD中宿主与微生物的分子相互作用机制,最后利用随机森林分析结合ROC曲线,建立IBD诊断模型,该文章为其它肠道菌群相关疾病的研究提供了切实可行的技术路线。
研究背景
炎症性肠病 (IBD) 包括克罗恩病 (CD) 和溃疡性结肠炎 (UC),其都属于肠道系统的多因子慢性病,虽然IBD被发现与肠道菌群和肠道代谢组相关,IDB也一直是肠道菌群研究中的热点问题,但是IBD中宿主和微生物的分子相互作用还并不清楚,同时还没有明确的方法可以有效的区分CD与UC。
技术路线
研究结论
1、PCoA表明IBD病人和健康个体的肠道菌群组成和代谢图谱具有显著差异,同时IBD病人肠道菌群具有较低的多样性。
2、个体的代谢图谱和宏基因组图谱与粪便的钙卫蛋白 (肠炎指标) 的水平显著相关。
3、Roseburia hominis、Dorea formicigenerans和Ruminococcus obeam在IBD个体中丰度显著降低。
4、代谢组鉴定到超过2700个代谢物在IBD和健康样品中有丰度差异,其中224个在UC和CD中均显著上调。
5、在IBD病人中,鞘脂类和胆汁酸类物质富集,同时三酰甘油和四吡咯的含量减少。IBD病人中富集的胆汁酸大多为初级胆汁酸,如胆酸盐和鹅去氧胆酸盐,说明IBD干扰了肠道菌群将初级胆汁酸代谢为次级胆汁酸;神经酰胺和鞘磷脂在IBD病人中富集,其会促进宿主的炎症状态;三酰甘油、长链脂肪酸和胆固醇在IBD个体中含量下降,说明IBD会干扰宿主的脂肪酸代谢。
6、通过相关性热图对代谢物进行聚类,并筛选可能用于IBD诊断的代谢物,位于同一个代谢物共表达聚类内的物质可能:①一个常见代谢物的变体或下游产物,②位于同一个生物化学路径中,③由同一个特定微生物产生,④来源于同一种特定的食物。
7、通过差异微生物与差异代谢物之间的相关性分析,识别到了多个肠道微生物与代谢组之间的关系,一个代谢物与一个微生物之间显著正相关,代表这种代谢物促进这一微生物生长或这种代谢物有这个微生物合成。
8、对宏基因组分析表明,多种与氧化压力形成有关的酶在IBD个体肠道菌群中富集。
9、通过筛选得到的关键微生物和代谢物,利用随机森林分析和ROC曲线建立IBD诊断模型并进行验证,结果表明,使用微生物和代谢物共同进行IBD的诊断要比单一的诊断模型具有更高的准确性。
研究特色
本文通过随机森林分析结合ROC曲线建立IBD的诊断模型。
随机森林分析用于按照不同的因素对样品进行分类,在微生物生态学的研究中,随机森林算法主要应用于对两组数据的分类的biomarker筛选。
随机森林是机器学习算法的一种,它可以被看作是一个包含多个决策树的分类器,其输出的分类结果是由每棵决策树“投票”的结果。
由于每棵树在构建过程中都采用了随机变量和随机抽样的方法,因此随机森林的分类结果具有较高的准确度。
基于物种丰度的随机森林的分析,按梯度选取不同数量的物种,构建随机森林模型,通过Mean Decrease Accuracy和Mean Decrease Gin筛选出重要的物种,之后对每个模型做交叉验证 (默认10-fold) 并绘制ROC曲线来检测模型预测的准确度。
ROC曲线指受试者工作特征曲线 (receiver operating characteristic curve), 是反映敏感性和特异性连续变量的综合指标,通过构图法揭示敏感性和特异性的相互关系。
ROC曲线将连续变量设定出多个不同的临界值,从而计算出一系列敏感性和特异性,再以敏感性为纵坐标、(1-特异性) 为横坐标绘制成曲线,曲线下面积越大,诊断准确性越高。
ROC曲线能很容易的查出任意界限时的对实验组 (如疾病) 的识别能力。
ROC曲线下的面积值在1.0和0.5之间,在AUC > 0.5的情况下,AUC越接近于1,说明诊断效果越好。
AUC在0.5~0.7时有较低准确性,AUC在0.7~0.9时有一定准确性,AUC在 0.9以上时有较高准确性。
在 ROC 曲线上,最靠近坐标图左上方的点为敏感性和特异性均较高的临界值。